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摘要 : 枫 香 因 其 树 形 优美 , 入 秋 后 叶 色 红 艳 或 橙黄 , 极 具 观赏 价值 ,是 优良 的 景观 生态 树种 。 
为 了 解 枫 香 叶 片 变色 及 其 次 级 代谢 过 程 的 遗传 基础 , 该 文 以 枫 香 5 个 变色 期 叶片 混合 样品 为 
材料 ， 利 用 单 分 子 实时 测序 技术 (PacBio 平台 〉 对 其 进行 全 长 转录 组 测序 。 结 果 表 明 : (1) 
全 长 转录 组 测序 共 获 得 41.04 Gb 的 高 质量 数据 ， 从 中 鉴定 出 全 长 非 撕 合 序列 563 180 条 , 38 
过 聚 类 和 去 元 余 ,获得 27 269 条 高 质量 全 长 转录 本 。 在 27 269 条 全 长 转录 本 中 预测 到 2 035 
条 长 链 非 编 码 RNA (lncRNA)， 并 检测 出 14 892 个 简单 重复 序列 (SSR) 位 点 和 1 856 个 转 
录 因 子 。(2) 基因 注释 结果 表明 ，NR、GO、COG、KEGG 等 8 个 数据 库 共 注释 了 24 857 
KIRKA, KEGG 数据 库 共 获得 了 124 个 条 代谢 途径 ,主要 有 核糖 体 、 碳 代谢 、 和 氨基酸 生物 
合成 等 , 在 类 黄酮 和 叶绿素 代谢 途径 中 分 别 有 49 和 71 个 转录 本 参与 。 上 述 结果 初步 揭示 了 
枫 香 叶 片 变色 期 转录 组 信息 以 及 功能 特性 , 为 后 续 研 究 枫 香 叶 片 变色 分 子 机 制 、 色 素 代谢 合 
成 途径 和 调控 、 相 关 功 能 基因 克隆 以 及 叶 色 改良 提供 基础 数据 。 
关键 词 ， 枫 香 ， 叶 片 变色 期 ， 单 分 子 实时 测序 技术 ， 全 长 转录 组 ， 基 因 功 能 注释 
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Sequencing and analysis of full-length transcriptome from 
Liquidambar formosana leaves in discoloration stage 
LIU Xiongsheng, YIN Guoping, XIAO Yufei, JIANG Yi, WANG Renjie, 
HUANG Ronglin, JIANG Ying, WANG Yong" 
(Guangxi Key Laboratory of Superior Trees Resource Cultivation, Guangxi Zhuang Autonomous 
Region Forestry Research Institute, Nanning 530002, China) 
Abstract: Liquidambar formosana is an excellent landscape ecological tree species because its 
beautiful tree shape and red or orange leaves in autumn. In order to understand the genetic basis of 
discoloration and secondary metabolism of L. formosana leaves, the mixed samples of L. 
formosana leaves at five discoloration periods were used for full-length transcriptome sequencing 
using single-molecule real-time sequencing technique (PacBio platform). The results were as 
follows: (1) High-quality 41.04 Gb data were obtained by full-length transcriptome sequencing, 
from which 563 180 full-length non-chimeric sequences were identified, and 27 269 high-quality 
full-length transcripts were obtained by clustering and de-redundancy. In 27 269 full-length 
transcripts, 2 035 long-chain non-coding RNA (IncRNA) were predicted, and 14 892 simple repeat 
sequence (SSR) sites and 1 856 transcription factors were detected. (2) The results of gene 
annotation showed that a total of 24 857 transcripts were annotated in 8 databases such as NR, GO, 
COG and KEGG, and 124 metabolic pathways were obtained in KEGG database, including 
ribosome, carbon metabolism, amino acid biosynthesis and so on. 49 and 71 transcripts were 
involved in flavonoid and chlorophyll metabolism respectively. The above results preliminarily 


reveal the transcriptome information and functional characteristics of L. formosana leaves during 
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the discoloration period, and provide basic data for the follow-up study of the molecular 
mechanism of discoloration, the pathway and regulation of pigment metabolism and synthesis, the 
cloning of related functional genes and the improvement of leaf color. 

Key words: Liquidambar formosana, leaf discoloration stage, single-molecule real-time 
sequencing technology, full-length transcriptome, gene function annotation 


随 着 人 们 对 观赏 植物 需求 的 日 益 增 加 ， 彩 叶 树 种 因 其 色相 丰富 、 色 泽 艳 丽 、 观 赏 价值 高 
等 特点 备 受 关注 〈 王 振兴 等 ，2016)。 彩 叶 树 种 叶 色 变化 机 制 及 其 影响 因素 也 随 之 成 为 了 而 
究 的 热点 〈 李 卫星 等 ，2017)。 近 年 来 ， 学 者 们 对 彩 叶 树种 叶 色 变化 做 了 大 量 研究 ， 研 究 内 
容 逐 渐 从 叶片 变色 过 程 中 表 型 形态 和 细胞 结构 变化 〈( 杜 文 文 等 ，2019; 深 玲 等 ，2020)、 生 
态 适 应 意义 (Menzies et al, 2016; [A OE SU RII EX, 20160 和 生理 生化 特征 〈Junker & 
Ensminger, 2016; 冯 露 等 ，2017; 赵 东 辉 等 ，2019)〉 到 叶 色 变化 分 子 调控 机 制 ( 陆 小 雨 等 ， 
2020; Gao et al., 2021)。 叶 片 内 叶绿素 、 花 青 素 、 类 胡 葛 小 素 等 色素 含量 变化 是 彩 叶 植物 叶 
色 变 化 的 直接 原因 Jiang et al., 2016; 李 卫 星 等 ，2017)。 目 前 ， 叶 色 变 化 分 子 机 制 研 究 主 
要 集中 在 叶绿素 、 类 胡 葛 卜 素 和 花 青 素 等 色素 合成 与 调控 有 关 基 因 、 转 录 因 子 、miRNA 
(MicroRNA) 及 其 靶 基 因 的 表达 模式 和 功能 等 方面 (Guan et al., 2014; Yang et al., 2015; 
Li et al., 2015; Gao et al., 2020)， 为 植物 叶 色 形成 的 遗传 和 基因 组 研究 、 叶 色调 控 以 及 彩 叶 
植物 资源 开发 莫 定 了 基础 。 

枫 香 (Liquidambar formosana) 5& JE a AHE} Hamamelidaceae WA W JE (Liquidambar), 
为 落叶 乔木 ， 主 要 分 布 于 中 国 秦 岭 和 淮河 以 南 各 省 区 海拔 1000m 以 下 的 低 山 次 生 林 内 ， 在 
越南 北部 、 老 挝 和 朝鲜 南部 亦 有 分 布 ( 黄 宁 等 ，2021)。 枫 香 适 应 性 强 ， 天 然 易 更 新 ， 适 宜 
红 、 黄 培土， 有 荒山 先锋 树种 之 称 〈 罗 紫 东 等 ，2016)。 入 秋 后 ， 枫 香 叶 片 逐 渐变 为 红色 或 
Riz WAMAMA EES, 20172. Am, YEA RIDGE GS MED, RH 
TEKERI, URANET RARER E BU. SET Ur ES AE LESTIE REER 
中 叶 色 变化 过 程 中 光合 作用 ( 罗 紫 东 等 , 2016)、 色 素 含量 ( 刘 儒 等 , 2017; 王 冬 雪 等 , 2019) 
等 生理 生化 方面 。 在 分 子 生物 学 方面 ，Wen 等 〈2014) 利用 二 代 测 序 技术 对 枫 香 秋 叶 衰老 
时 基因 表达 谱 进 行 了 研究 , 并 对 秋季 变色 和 叶片 衰老 过 程 中 可 能 的 基因 调控 进行 了 讨论 。 然 
而 ， 由 于 二 代 测 序 技术 读 取 序列 短 ， 拼 接 时 无 法 提供 长 转录 本 ， 且 会 丢失 可 变 剪 接 等 重要 信 
息 。 因 此 ， 目 前 ， 对 于 枫 香 叶片 变色 分 子 机 制 的 研究 仍然 缺乏 遗传 信息 ， 限 制 了 枫 香 叶 色 资 
源 的 开发 利用 。 

PacBio 单 分 子 实 时 测序 Csingle-molecule real-time, SMRT) 技术 测序 读 长 远 超 Illumina 
等 二 代 测 序 技术 ， 因 此 可 以 对 完整 的 mRNA 直接 进行 从 头 测序 ， 从 而 得 到 转录 本 的 全 长 信 
息 ， 具 有 发 现 更 多 可 变 剪 切 序 列 和 新 功能 基因 ,改善 基因 组 注释 ,鉴定 更 多 的 IncRNA (long 
non-coding RNA) 以 及 准确 定位 融合 基因 等 特点 (Tian et al., 2018， 夏 丽 飞 等 ，2020)， 广 泛 
应 用 于 转录 组 学 、 表 观 遗 传 学 和 大 型 基因 组 组 装 等 领域 GEN Be, 2019; 吴 志 铭 等 , 20200. 
夏 丽 飞 等 〈2020) 利用 PacBio 单 分 子 实 时 测序 技术 获得 紫 鹏 茶树 Camellia sinensis var. 
asssamica) 全 长 转录 本 信息 ， 为 其 变色 机 制 研究 提供 基础 数据 。Jia S (20200 对 高 山 杜 鹏 
(Rhododendron lapponicum) 进行 全 长 转录 组 测序 ， 获 得 75 002 个 高 质量 全 长 转录 本 ， 为 
其 花色 形成 机 制 研究 提供 参考 。 本 实验 通过 PacBio 的 单 分 子 实 时 测序 技术 进行 枫 香 叶片 变 
色 期 全 长 转录 组 测序 , 获取 高 质量 全 长 转录 本 进行 分 析 和 功能 注释 ,由 在 为 后 续 研 究 枫 香 叶 
片 变 色 分 子 机 制 、 色 素 代谢 合成 途径 和 调控 、 相 关 功 能 基因 克隆 以 及 叶 色 改良 提供 遗传 基础 。 


1 材料 与 方法 


1.1 实验 材料 

枫 香 叶片 变色 期 材料 采 自 广西 壮族 自治 区 百色 市 德 保 县 红叶 森林 公园 (23?21'19" E. 
106?39'5" N)， 采 用 平均 木 法 ,选取 5 株 生 长 健壮 的 枫 香 植株 。 在 每 株 枫 香 树 上 选取 东 、 南 、 
西 、 北 4 个 方向 的 枝条 做 好 标记 ， 自 2018 年 9 月 底 开 始 ， 每 15~20 d 采集 样品 1 次 ， 每 次 
采样 时 在 每 株 枫 香 的 每 个 枝条 上 采集 5 片 完 整 叶片 进行 混合 , 共 采 集 了 5 次 样品 。 各 时 期 叶 
片 颜 色 如 图 1 所 示 。 
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第 1 次 采样 ，B. 第 2 次 采样 ，C. 第 3 次 采样 ，D. 第 4 次 采样 ; E. 第 5 次 采样 。 
A. The first sampling; B. The second sampling; C. The third sampling; D. The fourth sampling; E. The fifth 


sampling. 


图 1 不 同 变色 期 栅 香 叶片 
Fig. 1 Leaf of Liquidambar formosana at different discoloration stages 

1.2 RNA 提取 和 cDNA 文库 构建 

采用 Trizol 试剂 提取 枫 香 各 时 期 叶片 样品 的 总 RNA (ribonucleic acid), H 1.2% 的 琼脂 
糖 凝 胶 电泳 检测 RNA 降解 和 污染 情况 。 使 用 NanoDrop 2000 分 光 光 度 计 测量 RNA 的 纯度 、 
浓度 和 吸收 峰 。 进 一 步 用 Aligent Bioanalyzer 2100 检测 RNA 质量 。RNA 检测 合格 后 ， 取 各 
时 期 28S/18S 二 1, H. RIN>>6.5 的 RNA 等 量 混合 , 使 用 SMARTer™ PCR cDNA Synthesis Kit 
合成 mRNA (messenger RNA) 的 全 长 cDNA Ccomplementary DNA), 通过 PCR (polymerase 
chain reaction) 扩 增 放大 全 长 cDNA 进行 末端 修复 , 并 连接 SMRT Csingle molecule real-time ) 
哑铃 型 接头 进行 核酸 外 切 酶 消化 ， 获 得 一 个 1~6 kb 的 文库 。 在 Pacific Bioscience RS II 平台 
上 进行 SMRT 测序 《委托 百 迈 客 生 物 科 技 有 限 公司 D. 
1.3 测序 数据 的 质量 控制 和 序列 聚 类 

将 原始 序列 中 长 度 <50 bp 的 片段 和 准确 性 二 0.90 的 序列 过 滤 ， 获 取 到 过 滤 后 的 测序 数 
据 。 根 据 序列 中 的 接头 , 将 序列 转换 成 环形 一 致 序列 CCS Ccircular con-sensus)， 再 根据 CCS 
判断 是 否 有 3' 引 物 、5' 引 物 以 及 PolyA， 将 序列 分 成 全 长 和 非 全 长 序列 。 将 来 自 同一 转录 本 
的 全 长 序列 聚 类 ， 相 似 的 聚 成 一 艇 ,每 个 簇 得 到 一 条 一 致 序列 ,校正 后 ， 获 得 用 于 后 续 分 析 
的 高 质量 序列 〈 丁 玉 梅 等 ，2020)。 
1.4 转录 组 完整 性 评估 和 结构 分 析 
使 用 CD-HIT (Cluster Database at High Identity with Tolerance) 软件 去 除 转录 本 中 的 元 
余 序列 , 获得 非 元 余 转 录 本 序列 ;利用 BUSCO(CBenchmarking Universal Single-Copy Orthologs ) 
对 去 元 余 后 的 转录 本 进行 完整 性 评估 ; 使 用 TransDecoder 软件 进行 转录 本 编码 区 序列 及 对 
应 氨基 酸 序 列 预测 ; 应 用 CPC (Coding Potential Calculator) 分 析 、CNCI (Coding-Non-Coding 
Index) 分 析 、Pfam (Protein Families) E AMIRI CPAT (Coding Potential Assessment 
Tool) 分 析 4 种 方法 预测 ncRNA; 筛选 500 bp 以 上 的 转录 本 ， 利 用 MISA (MIcroSAtellite 
identification tool) 软件 做 SSR (Simple Sequence Repeat) 分 析 。 
1.5 转录 本 功能 注释 
使 用 BLAST (Basic Local Alignment Search Tool) 软件 将 得 到 的 非 元 余 转 录 本 序列 与 
NR (Non-Redundant Protein Sequence Database ) 、 Swissprot ( Swiss-Prot Protein Sequence 
Database). GO (Gene Ontology), COG (Clusters of Orthologous Groups of proteins), KOG 

(Clusters of Orthologous Groups for Eukaryotic Complete Genomes), eggNOG (Evolutionary 


Genealogy of Genes: Non-supervised Orthologous Groups Database). Pfam, KEGG (Kyoto 
Encyclopedia of Genes and Genomes ) 数 据 库 进 行 比 对 , 获得 转录 本 的 注释 信息 (分 智 等 , 2021); 
利用 iTAK (Plant Transcription factor & Protein Kinase Identifier and Classifier) 软件 鉴定 转录 
因子 。 


2 结果 与 分 析 
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使 用 2 个 SMRT cell 进行 全 长 转录 组 测序 ,获得 41.04 Gb 清洁 数据 ,从 中 提取 到 731 849 

3k CCS, 约 计 1178 416 098 bp. CCS 平均 长 度 为 1610 bp CÉL 2: A), 测序 平均 深度 为 46x 

(图 2:B)。 从 731849 条 CCS 中 鉴定 出 全 长 非 嵌 合 序列 FLNCCfull length readsnon-chimeric ) 

563180 条 ， 占 比 为 76.95%， 其 长 度 分 布 如 图 2: C 所 示 。 对 FLNC 进行 聚 类 ， 获 得 50 736 

条 一 致 序列 ， 校 正 后 ， 共 得 到 50282 2& (99.11%) 高 质量 一 致 序列 ， 长 度 分 布 如 图 2: D 所 
示 。 对 获得 的 高 质量 一 致 序列 去 宛 余 ， 得 到 27 269 条 全 长 转录 本 。 
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A. Length distribution of CCS; B. Distribution of full passes for CCS extraction; C. Length distribution of FLNC; 


D. Length distribution of polished high-quality consensus isoforms. 
图 2 枫 香 叶片 变色 期 全 长 转录 组 序列 分 布 
Fig. 2 Sequence distribution of the full-length transcriptome in leaf discoloration stage of 


Liquidambar formosana 


2.2 编码 区 序列 、LncRNA 和 SSR 分 析 
通过 编码 区 序列 及 对 应 氨基 酸 序列 的 预测 ， 共 


获得 25 408 个 开放 阅读 框 ORF Copen 


reading frame), KP 20 281 条 ORF 是 完整 的 ， 占 比 79. 57%。IncRNA 预测 分 析 中 ，CPC、 
CNCI、CPAT 和 Pfam 分 别 预测 到 3 028、2 848、5 132 和 6 406 条 IncRNA, 2035 条 为 共有 
序列 (图 3: A)。 利 用 MISA 软件 筛选 500 bp 以 上 的 转录 本 ， 共 获得 14 892 个 SSR 位 点 ， 

其 中 单 碱 基 SSR 有 5 124 个 ， 数 目 最 多 ， 其 平均 密度 约 为 每 Mb43.5 个 (图 3: B). 
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A. IncRNA 预测 维 恩 图 ，B. SSR 25] 4); e. 混合 SSR; c*. 带 有 重合 碱 基 的 混合 SSR; pl. 单 碱 基 SSR; 
p2. 双 碱 基 SSR; p3. 三 碱 基 SSR; p4. 四 碱 基 SSR; p5. 五 碱 基 SSR; p6. 六 碱 基 SSR. 
A. Venn diagram of predicted IncRNA; B. Density distribution of SSR; c. Compound SSR; c*. Compound SSR 


with overlapping bases; p1. Mono-nucleotide SSR; p2. Di-nucleotide SSR; p3. Tri-nucleotide SSR; p4. 
Tetra-nucleotide SSR; p5. Pentanucleotide SSR; p6. Hexa-nucleotide SSR. 

图 3 枫 香 叶片 变色 期 转录 本 的 ncRNA 预测 和 SSR 分 析 

Fig. 3 IncRNA prediction and SSR analysis of transcripts in leaf discoloration stage of 


Liquidambar formosana 
2.3 转录 本 功能 注释 
8 个 数据 库 的 功能 注释 结果 显示 ( 表 1), 共 注 释 24 857 条 序列 , 占 总 转录 本 的 91.15 %。 
在 NR 注释 的 物种 中 , 葡萄 Vitis vinifera) 占 比 最 高 , 为 36.39 %, 其 次 是 可 可 树 (Theobroma 
cacao, 7.09%), ite (Nelumbo nucifera, 6.71 96). WAI! (Jatropha curcas，3.41 %) 等 
(图 4)。 


表 1 注释 转录 本 的 统计 情况 


Table 1 Statistics of transcripts annotated 


所 注释 数据 库 转录 本 数量 
Annotated database Number of transcripts 
NR 24 726 

GO 17 535 

COG 10 809 
KEGG 10 666 

KOG 15 286 

Pfam 20 455 
Swiss-Prot 17910 
eggNOG 24 158 


合计 Total 24 857 
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Lo 葡萄 Vitis vinifera: 8 997 (36.39%) 

Eu 可 可 树 Theobroma cacao: | 753 (7.0994) 
T £ Nelumbo nucifera: | 659 (6.7196) 
RAW Jatropha curcas: 844 (3.41%) 

= £R Populus trichocarpa: 655 (2.65%) 
E KK Ricinus communis: 645 (2.61%) 
—. HM$ Prunus mume: 631 (2.55%) 

-$k Prunus persica: 618 (2.50%) 

— KI Citrus sinensis: 554 (2.24%) 

E 胡杨 Populus euphratica: 520 (2.1096) 
E 其 他 Other: 7 848 (31.7494) 


4 NR 注释 同 源 种 分 布 统计 
Fig. 4 Statistics of NR homologous species distribution 
GO 注释 的 17 535 个 转录 本 中 ， 包 含 生 物 过 程 〈biological process, 49 314)、 细 胞 组 分 
Ccellular component, 36 008)、 分 子 功能 (molecular function，21 366) 3 大 类 51 个 亚 类 。 
其 中 ， 生 物 过 程 中 代谢 过 程 (metabolic process) 和 细胞 过 程 〈cellular process). 占 比 较 高 ， 
分 别 为 69.4% 和 59.1%; 细胞 组 分 中 细胞 区 域 (cell part) 和 细胞 〈cell) 占 比较 高 ， 分 别 为 
47.1% 和 46.8%; 分 子 功能 中 催化 活性 (catalytic activity) 和 结合 功能 (binding) 占 比较 高 ， 
分 别 为 53.3% 和 47.8% (图 5). 
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oo s N 


基因 数量 Number of genes (x1 000) 
e CN 


123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051 


细胞 组 分 Cellular component 分 子 功 能 Molecular function 生物 过 程 Biological process 


1. 细胞 组 分 ，2. 细胞 ，3. 细胞 器 ，4. 膜 结 构 : 5. 细胞 器 部 分 6. 高 分 子 配合 物 ，7. 细胞 膜 组 分 ，8. HH 
外 区 域 部 分 ; 9. 细胞 连接 ，10. 膜 封闭 内 腔 ;，11. 类 核 ，12. 胞 外 区 部 分 ，13. 病毒 体 ，14. 病毒 体 组 分 ; 

15. 细胞 外 基质 ;16. 催化 活性 ; 17. 结合 活性 ; 18. 转运 活性 ，19. 结构 分 子 活性 ; 20. 电子 载体 活性 ; 21. 
核酸 结合 转录 因子 活性 ; 22. 分 子 转 导 活性 ，23. 抗 氧化 活性 ，24. 酶 调节 活性 ; 25. 受 体 活性 ; 26. 结合 
蛋白 转录 活性 ; 27. 蛋白 标签 ; 28. 营养 贮存 活性 ; 29. 金属 伴侣 蛋白 活性 ; 30. 核酸 交换 因子 活性 ; 31. 翻 
译 调节 活性 ; 32. 代谢 进程 ， 33. 细胞 进程 ; 34. 单 组 织 生物 过 程 ， 35. 应 激 反应 ; 36. 生物 调节 ; 37. 定位 ; 
38. 细胞 组 织 部 分 ; 39. 发 育 进 程 ; 40. 多 细胞 进程 ; 41. 信号 传导 ; 42. 有 机 体 进程 43. 繁殖 进程 ; 44. 免 
疫 系统 进程 ，45. 生长; 46. 繁殖 ; 47. 节律 进程 ，48. 生物 相 ; 49. 生物 附着 ;50. 细胞 活动 :51. 细胞 失 
1. Cell part; 2. Cell; 3. Organelle; 4. Membrane; 5. Organelle part; 6. Macromolecular complex; 7. Membrane part; 
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8. Extracellular region; 9. Cell junction; 10. Membrane-enclosed lumen; 11. Nucleoid; 12. Extracellular region part; 


13. Virion; 14. Virion part; 15. Extracellular matrix; 16. Catalytic activity; 17. Binding; 18. Transporter activity; 19. 


Structural molecule activity; 20. Electron carrier activity; 21. Nucleic acid binding transcription factor activity; 22. 
Molecular transducer activity; 23. Antioxidant activity; 24. Enzyme regulator activity; 25. Receptor activity; 26. 
Protein binding transcription factor activity; 27. Protein tag; 28. Nutrient reservoir activity; 29. Guanyl-nucleotide 
exchange factor activity; 30. Metallochaperone activity; 31. Translation regulator activity; 32. Metabolic process; 
33. Cellular process; 34. Single-organism process; 35. Response to stimulus; 36. Biological regulation; 37. 
Localization; 38. Cellular component organization or biogenesis; 39. Developmental process; 40. Multicellular 
organismal process; 41. Signaling; 42. Multi-organism process; 43. Reproductive process; 44. Immune system 
process; 45. Growth; 46. Reproduction; 47. Rhythmic process; 48. Biological phase; 49. Biological adhesion; 50. 
Locomotion; 51. Cell killing. 
图 5 转录 本 GO 功能 分 类 统计 
Fig. 5 Transcript GO function classification statistics 

COG 注释 中 ， 一 般 功 能 预测 〈general function prediction only, 20.1196) 所 占 比例 最 高 ， 
其 次 为 转录 (transcription，9.34%)、 转 录 信 号 转 导 机 制 (signal transduction mechanisms, 
8.81 %)、 复 制 、 重 组 和 生物 发 生 (replication, recombination and biogenesis, 8.29%) 等 (图 
6). 


频率 Frequency (x1 000) 


uu | lin a 


ABCDEFGHIJKLMNOPQRSTUVWYZ 
SS Toninas 

A. RNA 加 工 与 修饰 : 108 (0.66%); B. 染色 体 结构 和 活力 : 104 (0.64%); C. 能 量 生 成 和 转换 : 849 (5.18%); 
D. 细胞 周期 控制 、 蛋 白质 折 壹 和 分 子 伴 个 : 152 (0.93%); E. 氨基 酸 运输 和 代谢 : 915 (5.59%); F. Ef 
酸 运输 和 代谢 : 131 (0.80%); G. 碳水 化 合 物 运输 和 代谢 : 949 (5.80%); H. 辅酶 运输 和 代谢 : 321 (1.96%); 
I 脂 质 运输 和 代谢 : 490 (2.99%); J. 翻译 、 核 糖 体 结构 和 生物 合成 : 1 114 (6.80%); K. 转录 : 1 530 (9.3496); 
L. 重复 、 重 组 和 修饰 : 1357 (8.20905; M. 细胞 壁 膜 生物 合成 : 334 (2.04%); N. 细胞 运动 : 14 (0.09%); 
o. 翻译 后 修饰 、 蛋 白质 折 铸 和 分 子 伴侣 1 265 (7.72%); P. 矿 脂 运输 和 代谢 : 651 (3.989); Q. KER 
谢 物 合成 、 运 输 和 代谢 : 553 (3.38%); R. 一 般 功 能 预测 : 3293 (20.11%); S. 功能 未 知 : 332 (2.03%); 
T. 信号 传导 : 1442 (8.81%); U. 细胞 内 转运 、 分 泌 和 小 泡 运 输 : 212 (1.29%); V. 防卫 机 制 : 153 (0.9396); 
W. 胞 外 结构 : 0 (0.0090; Y. 核 结构 : 0 (0.00%); Z. 细胞 构架 : 107 (0.6590). 

A. RNA processing and modification: 108 (0.66%); B. Chromatin structure and dynamics: 104 (0.6496); C. Energy 
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production and conversion: 849 (5.1896); D. Cell cycle control, cell division, chromosome partitioning: 152 
(0.9395); E. Amio acid transport and metabolism: 915 (5.59%); F. Nucleotide transport and metabolism: 131 
(0.80%); G. Carbohydrate transport and metabolism: 949 (5.8096); H. Coenzyme transport and metabolism: 321 
(1.9696); I. Lipid transport and metabolism: 490 (2.9994); J. Translation, ribosomal structure and biogenesis: 1 114 
(6.80%); K. Transcription: 1 530 (9.3496); L. Replication, recombination and repair: 1 357 (8.29%); M. Cell 
wall/membrane/envelope biogenesis: 334 (2.0496); N. Cell motility: 14 (0.09%); O. Posttranslational modification, 
protein turnover, chaperones: 1 265 (7.7296); P. Inorganic ion transport and metabolism: 651 (3.98%); Q. 
Secondary metabolites biosynthesis, transport and catabolism: 553 (3.3896); R. General function prediction only: 
3 293 (20.1196); S. Function unknown: 332 (2.0396); T. Signal transduction mechanisms: 1 442 (8.8190); U. 
Intracellular trafficking, secretion, and vesicular transport: 212 (1.2996); V. Defense mechanisms: 153 (0.9396); W. 
Extracellular structures: 0 (0.0096); Y. Nuclear structure: 0 (0.0096); Z. Cytoskeleton: 107 (0.65%). 
图 6 COG 注释 分 类 
Fig. 6 Classification of COG annotation 
KEGG 数据 库 中 共 注 释 10666 个 转录 本 ， 根 据 代谢 途径 分 为 机 体系 统 〈organismal 

systems，289)、 代 谢 (metabolism, 6596), WHARE EE (genetic information processing, 
2 920)、 环 境 信息 处 理 〈environmental information processing, 3042. ZH XEfé (cellular 
processes, 542) 等 5 个 一 级 代谢 通路 和 18 个 二 级 代谢 通路 以 及 124 个 三 级 代谢 通路 (图 7)。 
其 中 碳水 化 合 物 代 谢 (carbohydrate metabolism，1 919)、 翻 译 〈translation，1 735)、 全 局 和 
概述 地 图 (global and overview maps，1 318)、 氨 基 酸 代谢 (amino acid metabolism, 1 167)、 
JE. 4 JS. DEW (folding, sorting and degradation, 1 044) 等 二 级 代谢 通路 注释 的 转录 本 
较 多 。 三 级 代谢 通路 中 核糖 体 (ribosome，693)、 碳 代谢 Ccarbon metabolism, 6172. 4&3 
酸 的 生物 合成 Cbiosynthesis of amino acids，473 )、 内 质 网 中 的 蛋白 质 加 工 (protein processing 
in endoplasmic reticulum ，437 ) 、 剪 接 体 〈spliceosome ，348 )、 糖 酵 解 / 糖 异 生 

(Cglycolysis/gluconeogenesis，296)、 氧 化 磷酸 化 Coxidative phosphorylation, 292), RNA 运 
tE (RNA transport, 269)、 光 合生 物体 中 的 碳 固定 (carbon fixation in photosynthetic organisms, 
239)、 植 物 激素 信号 转 导 (plant hormone signal transduction, 235) 等 注释 的 转录 本 较 多 。 
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4| 7 KEGG 注释 分 类 
Fig. 7 Classification of KEGG annotation 


2.4 转录 因子 

使 用 iTAK 软件 共 预 测 得 到 转录 因子 1856 个 ， 分 属 159 个 基因 家 族 。 其 中 ， 
RLK-Pelle LRK10L-2 家 族 转录 因子 最 多 ， 为 97 个 ， 其 次 为 RLK-Pelle DLSV， 为 66 ^. 
图 8 显示 了 转录 因子 数 排名 前 20 的 基因 家 族 。 
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转录 因子 Transcription factor 


图 8 不 同 转录 因子 家 族 成 员 分 布 情况 


Fig. 8 Distribution of different transcription factor family members 


3 讨论 与 结 


近年 来 ，SMRT 测序 已 成 为 全 长 转录 组 研究 的 最 可 靠 、 有 效 的 策略 ， 特 别 是 对 于 没有 参 
考 基 因 组 序列 的 非 模式 植物 ( 潘 敏 等 ， 2020; 分 智 等 ， 2021)。 本 研究 应 用 SMRT 测序 技术 ， 
在 PacBio RS 开平 台 上 对 枫 香 叶片 变色 期 进行 了 研究 , 总 共产 生 了 41.04 Gb 的 测序 数据 ， 从 
中 共 提 取 到 731 849 条 全 长 序列 ， 全 长 非 能 合 序列 占 76.95%， 测 序 质量 较 好 ， 能 够 满足 后 
续 挖掘 基因 信息 的 需要 。SMRT 测序 技术 获得 的 转录 本 的 长 度 比 下 一 代 高 通 量 测序 技术 获得 
的 转录 本 的 长 度 要 长 (Jia et al., 2020). 本 研究 中 , 枫 香 叶片 变色 期 转录 本 的 平均 长 度 为 1 610 
bp， 远 高 于 Wen 等 《2014) 利用 Ilumina 测序 技术 得 到 的 枫 香 绿叶 和 红叶 转录 本 长 度 (165 
bp), XWH PacBio SMRT 测序 技术 是 获取 转录 本 序列 ,特别 是 获取 长 转录 本 序列 的 有 效 方 


yL 


法 。 


LncRNA 是 一 类 转录 本 长 度 大 于 200 nt 的 RNA 分 子 ， 参 与 调节 植物 的 发 育 和 生长 、 次 
生 代谢 和 植物 的 逆境 反应 (Liu et al., 2019)。 本 研究 中 ， 我 们 用 4 种 方法 在 枫 香 变色 期 全 长 
转录 组 中 获得 2 035 条 IncPRNAs, 这 些 IncRNAs 将 为 进一步 研究 枫 香 叶 色 变化 分 子 机 制 黄 定 
基础 。SMRT 测序 获得 的 转录 本 开发 SSR 标记 是 一 种 有 效 可 行 的 方法 〈 夏 丽 飞 等 ，2020 )。 
本 研究 分 析 枫 香 叶 片 变 色 期 全 长 转录 组 ， 共 检测 到 14 892 个 SSR 位 点 ， 单 碱 基 SSR 数量 最 
Z. WEDARAN, POÉ, HAEE. AE, ER SSR 位 点 为 为 枫 香 遗传 多 样 


性 研究 、 比 较 基因 组 学 研究 、 基 因 作 图 古 
价值 的 遗传 工具 〈 李 文 燕 等 ，2020; Wu 
在 8 个 数据 库 中 ， 有 24 857 个 枫 香 
转录 本 比例 为 91.15 96, 远 高 于 Wend 等 人 
这 表明 本 而 


息 与 葡萄 最 相似 (36.39%)， 与 Wend 等 


et al., 2020). 


完 鉴定 到 大 量 枫 香 叶片 中 的 基因 。。 
能 代表 了 栅 香 叶片 特异 的 基因 或 未 知 基因 。 


叶片 变色 期 转录 本 通过 


究 、 种 群 遗传 学 研究 和 其 他 类 型 的 遗传 


2014) 利 


Nr 注释 结 
(2014) Hf] 


完 提 供 有 


十 序列 比 对 进行 了 注释 ， 注 释 
二 代 测 序 技术 注释 的 转录 本 比例 (56%)。 
剩 下 的 2412 个 转录 本 没有 BLAST 
表明 ， 枫 香 叶 片 全 长 转录 组 序列 信 
究 结 果 一 臻 。GO、COG 和 KEGG 分 


匹配 ， 可 


类 结果 表明 ， 大 量 转录 本 参与 转录 、 复 制 、 重 组 和 修复 ， 并 具有 催化 活性 ， 具 有 不 同 的 分 子 
功能 ， 有 10666 份 转录 本 被 分 配 到 特定 的 途径 ， 参 与 多 种 生物 学 途径 。 因 此 ， 我 们 的 研究 
结果 为 进一步 开展 枫 香 叶 色 变化 的 分 子 研究 提供 了 丰富 的 遗传 信息 。 
植物 叶片 内 叶绿素 、 花 青 素 以 及 类 胡萝卜 素 含量 比例 和 分 布 决定 了 叶片 的 颜色 , 而 色素 
代谢 主要 受 结构 基因 和 转录 因子 调控 (Becker et al., 2014; 李 卫 星 等 ,2017; 陈 璇 等 ,2020 )。 
相关 研究 表明 ， 叶 绿 素 含 量 降低 ， 花 色素 苷 大 量 积 累 是 导致 机 香 叶片 变 红 的 直接 原因 〈 刘 癸 
等 ，2017; Yin atal., 2022)。 前 人 研究 表明 ,HEMA1 CGlutamyl-tRNA reductase 1), CAO 
(Chlorophyllide a oxygenase ) 等 基因 是 调控 叶绿素 合成 的 重要 基因 (Wu et al., 2007), NYCI 
(Non yellow coloring 1) 和 NOL (Nonyellow coloringl-like) 基因 在 叶绿素 降解 过 程 中 起 关 
键 作 用 (Sato et al., 2007), HD-Zip, WRKY 和 GATA 家 族 的 转录 因子 可 调控 叶绿素 含量 (An 
et al., 2014; 李 卫 星 等 ,2017); 在 本 研究 的 叶绿素 代谢 途径 中 ,有 27 个 转录 本 被 注释 为 HEMA 
C Glutamyl-tRNA reductase )、PPOX (Protoporphyrinogen oxidase ) 、 CHLD ( Magnesium 
chelatase subunit D). CHLM ( Magnesium chelatase subunit M). POR ( Light-dependent 
protochlorophyllide reductase). CAO. NYC1. NOL, HCAR[7-Hydroxymethylchlorophylla (hmchl) 
reductase] 基 因 ， 有 17. 55. 19 个 转录 本 分 别 属于 HD-Zip、WRKY 和 GATA 家 族 。 尤 其 是 
在 叶绿素 降解 过 程 中 起 关键 作用 的 NYCI 和 NOL 基因 ， 可 能 是 调控 枫 香 叶片 叶绿素 含量 的 
C4H(Cinnamate 4-hydroxylase )、.CHS(Chalcone synthase). F3HCFlavanone 3-hydroxylase )、 
F3'H 〈 Flavonoid 3'-hydroxylase ) ~  F3'5'H ( Flavonoid-3',5'-hydroxylase ) 、 DFR 
CDihydroflavonol-4-reductase) 和 ANS (Anthocyanidin synthase) 是 调控 植物 花 青 素 生 物 合 
成 的 关键 酶 ， 直 接 影响 花 青 素 合成 〈 许 倩 等 , 2020; Jia et al., 2020)，MYB 和 bHLH 家 族 的 
转录 因子 通过 调节 花 青 素 生 物 合成 中 基因 的 表达 起 着 关键 作用 《〈 刘 恺 媛 等 ，2021)。 本 研究 
中 ， 有 49 个 转录 本 参与 类 黄酮 生物 合成 途径 ， 在 花 青 素 合 成 途径 中 ， 有 31 个 转录 本 被 
注释 为 编码 C4H、HCT (Shikimic acid/Quinic acid hydroxy cinnamyl transferase )、CYP98A 
(Cytochrome P450), C3'H (Cp-coumaroyl shikimate/quinate 3'-hydroxylas?), CHS, F3H. 
CYP75BI (Cytochrome P450 75B1), DFR, ANS 的 关键 基因 ， 有 36 和 46 个 转录 本 分 别 属 
T MYB fll bHLH 家 族 。 这些 参 与 叶绿素 代谢 和 人 花 青 素 生 物 合成 的 基因 将 有 助 于 后 续 进 一 步 
理解 枫 香 的 叶 色 调控 机 制 。 
综 上 所 述 ， 本 研究 枫 香 叶片 变色 期 全 长 转录 组 测序 共 获 得 41.04 Gb 的 高 质量 数据 ， 获 
得 27 269 条 高 质量 全 长 转录 本 ， 并 注释 了 24 857 条 转录 本 ， 还 预测 到 2 035 条 IncRNA， 检 
测 出 14 892 个 SSR 位 点 和 1 856 个 转录 因子 。 初 步 揭示 枫 香 叶片 变色 期 转录 组 信息 以 及 功 
能 特性 ， 为 后 续 开 展 枫 香 叶 色 变化 分 子 调控 机 制 以 及 叶 色 改良 研究 提供 基础 数据 。 
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